智能论文笔记

Divide-and-Conquer Hard-thresholding Rules in High-dimensional Imbalanced Classification

Arezou Mojiri , Abbas Khalili , Ali Zeinal Hamadani

分类： (统计)机器学习

2021-11-05

在二进制分类中，不平衡是指一个类受到重量级的情况。这个问题是由于数据收集过程，或者是一个班级的人口中罕见。生物学，医学，工程和社会科学等应用中经常出现不平衡的分类。在本手稿中，我们首次学习不平衡课程大小对高尺寸线性判别分析（LDA）的影响。我们表明，由于一类中的数据稀缺，称为少数阶级，以及特征空间的高度，LDA忽略了少数阶级，产生了最大的错误分类率。然后，我们基于划分和征服技术提出了一种新的硬阈值规则的建设，这减少了错误分类率之间的巨大差异。我们表明所提出的方法是渐近最佳的。我们进一步研究了不平衡案例中的两个已知众所周知的LDA稀疏版本。我们使用模拟评估不同方法的有限样本性能，并通过分析两个真实数据集。结果表明，我们的方法胜过其竞争对手或基于所选特征的小区的较小子集具有可比性，同时计算更有效。

translated by 谷歌翻译

虽然基于深度学习的方法表明了皮肤病学诊断任务中的专家级表现，但它们还显示出对某些人口统计学属性，尤其是皮肤类型（例如，光对黑暗）的偏见，必须解决公平的关注。我们提出了圆圈，这是一种肤色不变的深度表示学习方法，可改善皮肤病变分类的公平性。通过利用正规化损失来鼓励具有相同诊断的图像但皮肤类型不同以具有相似的潜在表示，对圆圈进行了对图像进行分类的训练。通过广泛的评估和消融研究，我们证明了在跨越6种菲茨帕特里克皮肤类型和114种疾病的16K+图像上评估时，Circle的表现优于最先进的表现，使用分类精度，平等的机会差异（对于光与黑暗组），和归一化精度范围，这是我们提出的一种新措施，以评估多个皮肤类型组的公平性。

translated by 谷歌翻译

元学习会自动渗透一种归纳偏差，其中包括基础学习算法的超参数，通过观察来自有限数量相关任务的数据。本文研究了pac-bayes在元概括差距方面的界限。元化差距包括两个概括差距的来源：分别由每个任务观察到有限数量的任务和数据样本而产生的环境级别和任务级别差距。在本文中，通过上边界任意凸函数，将环境的预期和经验损失与每个任务水平联系起来，我们获得了新的PAC-Bayes边界。使用这些边界，我们开发了新的Pac-Bayes元学习算法。数值示例证明了与先前的pac-bayes界限进行元学习相比，提出的新型界限和算法的优点。

translated by 谷歌翻译